从基因表达数据中学习因果网络：基因调控关系的随机事件序列模型及基因表达数据中模型的体现

-----Learning Causal Networks from Gene Expression Data: A Probabilistic Time Series Model for Gene Regulatory Relationships and Learning the Model from Gene Expression Data

作者： Nasir Ahsan

出版： Deutsche Nationalbibliothek

索书号： Q75/D139(5)/2010/Y

藏书地点：武大外教中心

基因芯片的原型是80年代中期提出的，其原理是杂交方法，即通过与一组已知序列的核酸探针杂交。该技术将大量核酸探针分子固定于支持物上后与标记的样品分子进行杂交，通过检测每个探针分子的杂交信号强度进而获取样品分子的数量和序列。经过多年的发展，芯片技术已广泛用于药物筛选、新药研发，疾病诊断等，特别是在生命科学研究领域，已用于研究基因的表达、新基因的寻找、基因的调控网络等。芯片得到的数据量极其庞大，从这些庞大的数据中分析出有利数据，得到正确的结论，是现在生物芯片研究面临的重大挑战。因为这些数据的分析结合了数学、生物和计算机等数个学科。本书作者正是从事芯片数据挖掘分析的专家，在本书中试图展现出分析基因表达调控通路各个因子之间的相关性的新型模型，从而使各因素之间的生物学关系变得明朗。

本书作者Nasir Ahsan目前是澳大利亚机器人学中心的博士生，从事自适应性海洋调查。在此之前，Nasir Ahsan 作为南京理工大学的讲师得到了一项关于自主飞行器研究课题。2006年Nasir Ahsan 获得新南威尔士大学理科硕士学位，2004年获得沙特阿拉伯Kingfaha石油矿产大学的理学学士学位。

在本书中作者提出了一种从基因调控网络中鉴别各种因素之间相关性的新模型。新模型整合了随机性和暂时性方面的考量，两者有意的顾及是为了保证能从基因表达芯片数据中获得经得起考验的结论。这种模型最重要的简化特征是把调控基因表达的多种因素割裂分离开了，然后压缩成一个单一因素。因此我们能导出学习算法，来避免多种因素模型中掺有的过适性趋势。本书作者确认了在模拟数据中学习算法的有效性，同时也实际进行了芯片实验来验证。我们发现这样能发掘出新的比较合理的生物学关系。

本书提出了新的基因表达分析模型，用非常专业化和逻辑性的语言为读者呈现了一个生物分析数学和逻辑分析的新奇领域。本书主要有如下几大特点：

第一，专业表述准确详实。由于本书涉及的是数学和生物的交叉学科，即使对于生物专业和数学专业的人员而言理解都有一定难度，但本书对于概念公式定理的表述比较具体，易于理解；

第二，编排逻辑性强。对于新模型的提出进行了非常具有逻辑性的论证铺垫。

第三，数据、图标、公式齐全，图文并茂。对于读者对本文的理解具有很好的帮助作用。

总之，作为一本专业性极强的分析表达芯片数据的书籍，对于涉及这一专业方向的研究人员或者相关从业人员而言，是一本不错的书籍，具有一定的参考价值。

1 简介

1.1 本书目的

1.2 本书专业贡献性

1.3 本书结构

2 背景理论

2.1 基本概念

2.2 Bayesian模型：文献概览

2.3 复杂性和学习性

2.4 哲学支撑

2.5 结论

3 基于时间的一种随机性模型

3.1 介绍

3.2 可能的模型

3.3 ξ压缩功能的简化概述

3.4 暂时性模型

3.5 模式化时间系列数据：芯片数据

3.6 ξ模型和复杂性

3.7 ξ模型和因果性

3.8 结论

4 数据中获取ξ模型

4.1 学习算法

4.2 父归纳算法

4.3 得分值

4.4 网络归纳算法

4.5 总结

5 基于时间顺序的芯片数据模拟程序

5.1 介绍

5.2 基于时间顺序的芯片数据的模式化

5.3新模型和基于时间顺序的芯片数据模拟程序

5.4 局限与扩展

5.5 结论

6 实验验证

6.1 介绍

6.2 评估策略

6.3 基于模拟数据

6.4 芯片数据的网络探测

6.5 现实学习对抗随机性数据

6.6 GRAM模块

6.7 结论

7 本文结论

7.1 实验验证

7.2 将来需进行的工作

（武汉大学生命科学学院研究生刘靖）